RTX 5090

【笠原一輝のユビキタス情報局】新たに判明したGeForce RTX 5090のアーキテクチャを徹底解説 - PC Watch

Tensorコアに関しては新しくFP4で演算することが可能になっており、FP4(スパース性)を利用した場合、最大3,352TOPSの性能を実現する。

GPT-5.icon

FP4（4ビット浮動小数点）により、FP16と比べて

メモリ使用量が半分に削減される

画像生成速度が約2倍になる

実例：あるAIモデル（23GB以上を使うもの）では、

RTX 4090での画像生成時間：約15秒

RTX 5090ではFP4使用で約5秒へ短縮

FP4は「データ幅が小さい」ため、メモリ転送と演算回数あたりの処理効率が上がるから速くなります。

理由を分解するとこうです。

1. ビット幅が小さい

FP16は16ビット、FP4は4ビット。

1つの値に必要なメモリ量が1/4になる。

2. メモリ転送効率の改善

同じ帯域幅でも、より多くのデータを一度に読み書きできる。

特に生成AIは「演算よりもメモリ転送がボトルネック」になりやすいため大きな効果が出る。

3. 演算ユニットの並列性向上

1クロックあたりの演算回数が増える。

GPUのTensorコアは「行列演算を同時にたくさん処理する」構造。

ビット幅が小さいと、同じ回路面積でより多くの演算を一度にこなせる。

4. 電力効率の改善

低精度演算は消費電力が少なく、クロックや並列処理数を上げやすい。

その結果、処理速度がさらに伸びる。

ただし注意点もある

FP4は精度が低いため、そのまま学習には使えないことが多い。

推論（画像生成など）では「量子化」技術を使ってFP4でも品質を維持する工夫が必要。

精度を落とすと画質にノイズや劣化が出るリスクがある。

「小さいビット幅 = データが軽くなり、GPUが一度にもっと処理できる → メモリも計算も速くなる」

FP4は「表現できる数が少なすぎる」ため精度が落ちます。その結果、学習には情報量が足りず不安定になります。推論（画像生成など）で使うには、品質を保つための工夫（量子化手法）が必要で、簡単ではありません。

理由を順に説明します。

1. 精度が低くなるのはなぜか

FP16（16ビット）だと約6万種類の数値を表現できる

FP4（4ビット）だとせいぜい16種類しか表現できない

そのため「近い値が同じに丸められてしまう」＝情報が失われる

例：0.101 と 0.102 が同じ値にされる

2. 学習に使えないのはなぜか

学習では勾配（とても小さい値や微妙な差）を扱う

FP4だとその差を表現できず、勾配が0になったり暴走したりする

結果として学習が進まない、発散する

3. 推論で品質を維持する工夫が必要なのはなぜか

モデルの重み（数百万～数十億個）はFP16やFP32で学習されている

FP4にそのまま丸めると「情報欠落 → 精度劣化 → 出力の品質低下」になる

そこで「量子化」技術を使って、

重要な部分は高精度のまま残す

使わない部分だけFP4に落とす

スケーリング（範囲調整）してなるべく誤差を減らす

4. それは難しい？

単純に「全部FP4にする」と品質は大きく落ちる

高品質を保ちながらFP4を使うには以下が必要

モデルごとに最適な量子化手法を選ぶ

学習後に微調整（量子化後ファインチューニング）を行う

推論エンジン（例：TensorRT-LLM）で専用の最適化をする

つまり「難しい」けど、研究やライブラリ整備が進めばユーザーは簡単に使えるようになる

まとめると

精度が低い理由：表現可能な数が少なすぎる

学習に使えない理由：微小な勾配を表せない

品質維持が必要な理由：そのままでは出力が崩れる

難易度：研究者は難しいが、一般ユーザーは最終的に「量子化済みモデル」を使うだけで済む可能性が高い